آسیب‌پذیری دائمی مرورگرهای هوش مصنوعی در برابر حملات تزریق دستورات

0 2 4 دقیقه مطالعه

حتی در شرایطی که OpenAI تلاش می‌کند مرورگر هوشمند اطلس را در برابر حملات سایبری مقاوم‌تر کند، این شرکت اذعان دارد که «تزریق فرمان» (Prompt Injection)، نوعی حمله که با فریب هوش مصنوعی به اجرا کردن دستورات مخرب ــ که اغلب در صفحات وب یا ایمیل‌ها مخفی می‌شوند ــ انجام می‌شود، خطری همیشگی است که به این زودی‌ها از بین نخواهد رفت؛ مسئله‌ای که سوالاتی درباره امنیت فعالیت هوش مصنوعی در فضای آزاد وب ایجاد کرده است.

OpenAI در یک پست وبلاگی که روز دوشنبه ۲ دی ۱۴۰۴ منتشر شد و درباره تقویت امنیت مرورگر اطلس در برابر این حملات توضیح داده بود، اعلام کرد: «تزریق فرمان، مشابه با کلاهبرداری‌ها و مهندسی اجتماعی در سطح وب، به طور کامل قابل حل نخواهد بود.» این شرکت اعتراف کرد که «حالت عامل» (agent mode) در ChatGPT Atlas، سطح ریسک امنیتی را افزایش داده است.

OpenAI در مهر ۱۴۰۳، مرورگر ChatGPT Atlas را عرضه کرد. بلافاصله پس از آن، پژوهشگران امنیتی نسخه‌های نمایشی خود را منتشر کردند که نشان می‌داد می‌توان فقط با نوشتن چند واژه در گوگل داکس، رفتار مرورگر را تغییر داد. همان روز، Brave نیز در پستی توضیح داد که «تزریق غیرمستقیم فرمان» چالشی ساختاری برای مرورگرهای مبتنی بر هوش مصنوعی، از جمله Comet ساخته شرکت Perplexity، به حساب می‌آید.

OpenAI تنها شرکتی نیست که به بقای حملات مبتنی بر فرمان اذعان دارد. مرکز ملی امنیت سایبری بریتانیا اوایل همین ماه هشدار داد که حملات تزریق فرمان علیه سامانه‌های هوش مصنوعی مولد «شاید هرگز به‌طور کامل مهار نشود» و این موضوع می‌تواند موجب افشای اطلاعات وب‌سایت‌ها شود. این نهاد انگلیسی به متخصصان امنیت سایبری توصیه کرد به جای تصور امکان توقف کامل این حملات، بر کاهش ریسک و اثرات تزریق فرمان تمرکز کنند.

از نگاه OpenAI، این شرکت اعلام کرده: «ما تزریق فرمان را به عنوان یک چالش بلندمدت در امنیت هوش مصنوعی می‌بینیم و باید بطور مداوم دفاع خود را در برابر آن تقویت کنیم.»

راهکار این شرکت برای این چالش مداوم چیست؟ یک چرخه واکنش سریع و فعال که — به ادعای شرکت — امیدبخش بوده و به آن‌ها این امکان را می‌دهد که قبل از سواستفاده گسترده، راهبردهای نوین حمله را به‌صورت داخلی شناسایی کنند.

این رویکرد چندان با گفته‌های رقبایی مانند Anthropic و گوگل تفاوت ندارد؛ آنها نیز معتقدند برای مبارزه با حملات پایدار مبتنی بر فرمان، باید لایه‌های دفاعی ایجاد و این لایه‌ها دائماً تحت آزمون فشار قرار بگیرند. برای نمونه، پژوهش‌های اخیر گوگل بیشتر بر کنترل‌های معماری و سیاستی برای سیستم‌های عامل محور تمرکز دارد.

اما تفاوت OpenAI، استفاده از «حمله‌گر خودکار مبتنی بر مدل زبانی بزرگ (LLM)» است. این حمله‌گر در واقع رباتی است که OpenAI آن را با یادگیری تقویتی آموزش داده تا نقش یک هکر را بازی کند و راه‌های ارسال دستورات مخرب به عامل هوش مصنوعی را پیدا کند.

این ربات می‌تواند حمله را در محیط شبیه‌سازی شده امتحان کند و شبیه‌ساز نشان می‌دهد که هدف (AI)، چگونه فکر می‌کند و اگر حمله را ببیند، چه واکنشی نشان می‌دهد. سپس ربات می‌تواند پاسخ را مطالعه، حمله را اصلاح و دوباره امتحان کند. چنین بینشی نسبت به فرایندهای درونی هوش مصنوعی وجود دارد که افراد خارج از شرکت، به آن دسترسی ندارند؛ بنابراین، در تئوری، ربات OpenAI می‌تواند سریع‌تر از یک حمله‌کننده واقعی، نقص‌ها را بیابد.

این رویکرد، تاکتیکی متداول در تست ایمنی هوش مصنوعی است: ساخت یک عامل که موارد خاص و لبه‌ای را پیدا کرده و به طور سریع در شبیه‌ساز آن را آزمون کند.

OpenAI نوشته است: «حمله‌ انجام‌شده توسط ربات آموزش‌دیده‌ی ما با یادگیری تقویتی می‌تواند عامل را به سمت اجرای جریان‌های آسیب‌رسان پیشرفته و طولانی هدایت کند که در چندین (و حتی صدها) مرحله رخ می‌دهد. همچنین راهبردهای حمله جدیدی را مشاهده کردیم که در آزمایش انسانی یا گزارش‌های خارجی ظاهر نشده بودند.»

a screenshot showing a prompt injection attack in an OpenAI browser. — **Image Credits:**OpenAI

در یک نسخه نمایشی (که بخشی از آن در تصویر بالا دیده می‌شود)، OpenAI نشان داد حمله‌گر خودکارش چگونه یک ایمیل مخرب را به صندوق ایمیل کاربر وارد کرد. پس از آن، زمانی که عامل هوش مصنوعی صندوق ایمیل را اسکن کرد، به جای تهیه پاسخ مرخصی، طبق دستور پنهانی، پیام استعفا ارسال کرد. اما با به‌روزرسانی امنیتی، طبق اعلام شرکت، «حالت عامل» توانست تلاش برای تزریق فرمان را شناسایی و به کاربر هشدار دهد.

این شرکت اعلام می‌کند هرچند مهار کامل حملات تزریق فرمان دشوار است، اما با اجرای آزمایش‌های وسیع و به‌روزرسانی سریع‌تر، قصد دارد سیستم‌های خود را پیش از وقوع حملات واقعی مقاوم کند.

یکی از سخنگویان OpenAI از اعلام این‌که به‌روزرسانی صورت‌گرفته در امنیت اطلس تا چه اندازه باعث کاهش قابل سنجش در موفقیت حملات تزریق شده است خودداری کرد؛ اما تأکید کرد که شرکت از پیش از عرضه، با همکاری شرکای بیرونی در جهت مقاوم‌سازی اطلس در برابر تزریق فرمان فعالیت داشته است.

رامی مک‌کارتی، پژوهشگر ارشد امنیت در شرکت امنیت سایبری Wiz، اظهار کرد یادگیری تقویتی یکی از راه‌هایی است که به شکل مستمر می‌توان با رفتار مهاجمان سازگار شد؛ اما فقط بخشی از راه‌حل است.

مک‌کارتی به خبرنگار گفت: «رویکرد مفید برای تحلیل ریسک در سیستم‌های هوش مصنوعی، ضرب استقلال در میزان دسترسی است.»

وی توضیح داد: «مرورگرهای عامل‌محور معمولاً جایگاه چالش‌برانگیزی دارند: استقلال متوسط همراه با دسترسی بسیار بالا. بسیاری از توصیه‌های فعلی منعکس‌کننده این مصالحه‌اند. محدود کردن دسترسی کاربران واردشده در حساب، عمدتاً باعث کاهش میزان نمایش داده‌ها می‌شود و تاییدیه‌گیری قبل از اجرای درخواست‌ها، اختیار عمل را محدود می‌کند.»

این‌ها دو مورد از توصیه‌های OpenAI برای کاربران جهت کاهش ریسک فردی است و طبق گفته سخنگو، اطلس به گونه‌ای آموزش دیده که پیش از ارسال پیام یا انجام پرداخت، تایید کاربر را دریافت کند. همچنین OpenAI توصیه می‌کند کاربران دستورالعمل‌های مشخصی به عامل‌ها بدهند و به جای دادن اجازه دسترسی کلی به صندوق ایمیل و جمله‌ای مانند «هر کاری لازم است انجام بده»، دستور دقیق بدهند.

OpenAI تأکید کرده: «اختیار عمل گسترده، حتی در حضور تدابیر ایمنی، کار عامل را برای تأثیرپذیری از محتوای پنهانی یا مخرب تسهیل می‌کند.»

هرچند OpenAI اعلام کرده محافظت از کاربران اطلس در برابر تزریق فرمان اولویت بالایی دارد، اما مک‌کارتی تردید دارد که مرورگرهای پرخطر ارزش سرمایه‌گذاری را داشته باشند.

مک‌کارتی به خبرنگار گفت: «برای اغلب سناریوهای استفاده روزمره، مرورگرهای عامل‌محور هنوز ارزش عملی کافی نسبت به ریسک فعلی‌شان ایجاد نمی‌کنند. به دلیل دسترسی به داده‌های حساس مانند ایمیل و اطلاعات پرداخت، ریسک بالاست؛ هرچند همین دسترسی عامل قدرت هم هست. این توازن در آینده تغییر می‌کند، اما فعلاً این مصالحه‌ها واقعی است.»

Post Views: 20